Pdata engineer etl insight

IT & Data 포지션 · Chapter 2 — 06

Data Engineer · ETL
파이프라인 포지션 인사이트

Spark·Airflow·Kafka·dbt를 다루는 데이터 엔지니어 포지션의 핵심 스택, 레벨별 기대치, 데이터 플랫폼 설계 역량까지 실전 가이드입니다.

후보자·헤드헌터·HR 대상파이프라인 스택 분석데이터 플랫폼 설계
01포지션 개요 & 시장 현황

데이터 엔지니어는 데이터가 안정적으로 흐르는 파이프라인을 설계하고 운영하는 역할입니다. 분석가가 데이터를 잘 쓸 수 있도록 인프라를 만드는 것이 핵심입니다.

클라우드 데이터 플랫폼(BigQuery, Snowflake, Databricks) 활용 역량과 dbt를 통한 데이터 변환 모델링이 최근 빠르게 필수 스택으로 자리잡고 있습니다. 실시간 스트리밍(Kafka, Flink) 경험은 고연봉 포지션의 강력한 차별점입니다.

02핵심 기술 스택
배치 처리
Apache Spark (PySpark)
Apache Airflow / Prefect
dbt (데이터 변환·모델링)
Python (ETL 스크립트)
스트리밍 처리
Apache Kafka
Apache Flink / Spark Streaming
Kinesis (AWS)
Pub/Sub (GCP)
데이터 웨어하우스
BigQuery / Snowflake / Redshift
Databricks (Delta Lake)
Data Lake 설계
데이터 카탈로그 (Datahub, Amundsen)
운영 & 품질
데이터 품질 모니터링 (Great Expectations)
데이터 계보(Lineage) 관리
SQL 고급 (성능 최적화)
Docker / Kubernetes 기본
03레벨별 기대 역량
JUNIOR
주니어 (0~3년)
SQL 중급 이상. Python으로 ETL 스크립트 작성. Airflow DAG 기본 구성. 클라우드 데이터 웨어하우스 기본 사용. 기존 파이프라인 유지보수.
MID
미드레벨 (3~6년)
Spark 배치 파이프라인 설계·운영. dbt 모델 설계. 데이터 품질 모니터링 구축. Kafka 기반 스트리밍 파이프라인 경험. 비용 최적화 경험(쿼리 최적화, 파티셔닝).
SENIOR
시니어 (6년+)
데이터 플랫폼 아키텍처 설계. Data Mesh·Data Lakehouse 개념 적용. 실시간 + 배치 통합 파이프라인. 데이터 거버넌스 체계 구축. 분석가·과학자 팀의 데이터 인프라 전략 지원.

데이터 엔지니어 면접의 핵심은 "파이프라인이 실패했을 때 어떻게 대응했는가"입니다. 안정성·재현성·모니터링을 어떻게 설계했는지, 데이터 품질 문제를 어떻게 감지하고 해결했는지 구체적인 사례로 준비하세요.

#데이터엔지니어#ETL파이프라인#Airflow #Spark#Kafka#dbt #IT채용#데이터플랫폼

이 블로그의 인기 게시물

MM